查看原文
其他

倾向值匹配与因果推论,史上最全面精妙的锦囊

欢迎投稿(荐稿)计量经济圈,计量相关都行

箱:econometrics666@sina.cn

编辑: @计量经济圈(ID: econometrics666); 来源: 胡安宁《社会学研究》2012; 计量经济圈有细分的社群专攻因果推断方法, 可以进入社群交流讨论。

计量经济圈之前发送的PSM干货:

1.PSM-DID, DID, RDD, Stata程序百科全书式的宝典

2.PSM倾向匹配Stata操作详细步骤和代码,干货十足

提要:社会科学对于因果关系的关注使得倾向值匹配( propensity score matching) 的方法受到越来越多的重视。本文从以下几个方面对这一方法进 行述评。首先,本文系统梳理了倾向值匹配方法的历史、发展及其对于社会 学调查研究的意义。其次,通过一个具体实例,本文展示了倾向值匹配的具 体实施过程。第三,从密尔对因果关系的论述以及统计学的反事实框架 ( counterfactual framework) 出发,本文阐释了倾向值匹配如何通过“控制”混 淆变量从而满足非混淆假设( unconfoundedness) 来帮助研究者提出因果性结 论。第四,本文将倾向值匹配与回归中断设计和工具变量进行了比较。最 后,在简要分析倾向值匹配的局限性之后,本文讨论了倾向值匹配的最新发展趋势。

关键词:因果推论 倾向值匹配 控制思想 反事实框架

在过去十几年中,社会科学领域中一个重要的方法论突破在于开 始关注如何通过严格的统计技术进行因果推论。在各种统计学方法中,倾向值匹配( propensity score matching) 受到越来越多的重视,并在教育学、传染病学以及社会学等领域 得到了广泛的应用。 相对于经济学的工具变量方法,倾向值匹配在社会科学研究中还 是一个新兴的统计技术。然而,随着越来越多的经验研究开始关注并 且应用倾向值匹配,其独特的优势也逐渐展现出来,因此有着极为广阔 的应用前景。本文将从六个方面系统介绍这一方法。在第一部分,笔 者将讨论倾向值匹配的历史、发展以及它对社会学调查研究的意义。


第二部分将通过一个具体实例来展示倾向值匹配的具体实施过程。在 第三部分,笔者将从科技哲学和统计学两个方面讨论为什么倾向值匹 配的结果可以进行因果性解读。第四部分将把倾向值匹配与其他比较 常用的因果推论方法进行简要对比并由此展示倾向值匹配相对于其他 方法所特有的优势。在第五部分,笔者将探讨倾向值匹配所存在的一 些局限性。最后,简要总结本文内容并探讨倾向值匹配的最新发展趋势。


   1

倾向值匹配: 历史、发展及其对调查研究的意义


倾向值( propensity score) 这一概念最早出现在1983 年罗森鲍姆和 鲁宾合写的一篇名为《倾向值对于观察研究中因果效应的中心作用》 的论文中( Rosenbaum & Rubin, 1983) 。倾向值指被研究的个体在控制 可观测到的混淆变量( confounding variables) 的情况下受到某种自变量 影响的条件概率。在一般的实证研究中,由于存在很多其他变量混淆 自变量和因变量之间的关系,研究者很难直接探索二者之间的“净效 果” ( net effects) 。例如,大学教育的收入回报可能受到年龄、性别以及 地区差异这些混淆变量的影响。因此,上大学的人的平均收入与没有 上大学的人的平均收入的差异有可能也反映了混淆变量的作用。这些 混淆变量的影响通常被称为选择性误差( selection bias) ,而通过倾向值 匹配的方式来控制和消除选择性误差则是罗森鲍姆和鲁宾论文的题中 之义。罗森鲍姆和鲁宾用数理方法证明: 通过将这些混淆变量纳入 Logistic 回归模型来产生一个预测个体受到自变量影响的概率( 倾向 值) ,研究者可以通过控制倾向值来遏制选择性误差对研究结论的影 响从而保证因果结论的可靠性。


在各种控制倾向值的方法中,匹配( matching) 比较简便易行。其 基本逻辑是将受到自变量影响的个体与没有受到影响的个体进行配 对。而倾向值匹配就是保证匹配起来的个体的倾向值相等或者近似。 再次回到大学教育的例子,倾向值匹配就是将没有受过大学教育的人 和受过大学教育的人配对并保证他们的倾向值( 即上大学的概率) 相 同或近似,这样我们就得到了上过大学和没上过大学两组个体。因为 已有的混淆变量已经在基于倾向值的配对过程中被控制起来了,两组个体收入上的差异就只能归因于大学教育的有无,而不是其他混淆变 量,由此遏制了选择性误差。


罗森鲍姆和鲁宾的思想与计量经济学家赫克曼的想法不谋而合。 从样本选择的角度出发,赫克曼认为社会科学家在研究某个自变量效 果的时候会不自觉地选择一些样本而忽视另外一些。例如,针对某个 研究项目,不同的个体有不同的参与意愿,或者研究者对于研究个体的 选择有特定的倾向。这些选择效应( selection effect) 使得研究者真正 接触的样本是有一定“偏向的”。而基于一个带有选择性的样本,我们 得出的结论也会由于选择效应的“污染”而出现偏差( Heckman, 1979; Heckman & Smith, 1995) 。面对这种情况,赫克曼认为在进行研究时需 要做两步工作。第一步是建立模型来拟合个体参与到某种研究项目中 的可能性,第二步则是在控制这种参与可能性的前提下来考察我们所 关心的自变量对因变量的效果。因此,赫克曼的方法也被称为“两步 估计法” ( twostep estimator) ( Heckman, 1978, 1979) 。


我们今天所探讨的倾向值匹配可以说是罗森鲍姆和鲁宾的统计学 传统与赫克曼的计量经济学传统的结合。罗森鲍姆和鲁宾通过逻辑回 归方法将混淆变量“总结”成一个倾向值,而这也恰恰是赫克曼两步估 计法中的第一步所要做的,即通过模型估算个体参与某项研究的概率, 二者殊途同归。然而,这两个传统的一个不同点在于他们处理倾向值 的方式有一定差异。在得到倾向值之后,罗森鲍姆和鲁宾提出了多种 控制倾向值的方法 : 除 了 匹 配 之 外,也可以将倾向值分层 ( stratification) 或细分( sub-classification) ,然后在每个层次或类别内探 索因果关系;或者也可以将倾向值作为新的变量进行回归分析。 ① 而 在赫克曼的计量经济学传统中,倾向值主要是作为一个新的变量被纳 入到已有的计量经济模型中,例如选择模型( selection model) ,工具变 量( instrumental variable) ,或双重差分方法( differencein-differences method) 。需要指出的是,这种差异只是在处理倾向值的具体方式上的 不同,本质上这两个传统的基本逻辑是一致的,即在考察自变量效果之 前通过模型估计并控制个体受到自变量影响的概率。


在社会学领域,早在1997 年,宾夕法尼亚大学社会学系的史密斯 就已经使用倾向值匹配方法研究医院改革对患者死亡率的影响( Smith, 1997) 。然而,史密斯这篇文章的主要目的是展示倾向值匹配 方法,因此是作为方法论的论文发表在《社会学方法论》 ( Sociological Methodology) 期刊上的。两年以后,哈佛大学的温希普和摩根在《美国 社会学年鉴》 ( Annual Review of Sociology) 上系统梳理了如何通过统计 方法进行因果推论,其中也谈到了倾向值匹配( Winship & Morgan, 1999) 。


总体上来说,在2000 年之前,社会学领域内对倾向值匹配的主要 关注点还是在于熟悉倾向值匹配的基本逻辑,而将其作为一种普遍适 用的统计方法去研究实际问题还要到21 世纪才渐渐兴起。2003 年, 当时还在哈佛大学学习的哈丁在《美国社会学杂志》 ( American Journal of Sociology) 上发表了一篇论文研究社区贫困程度对社区少年辍学及 早孕的影响,其中倾向值匹配开始像多元回归那样作为一种统计技术 来验证和发展已有理论( Harding, 2003) 。也正是在这一阶段,倾向值 匹配的软件模块开始被开发出来并嵌入到一般的统计软件中。例如, 贝克尔和栎野在2002 年发布了可以嵌入 Stata 的用于倾向值匹配的模 块“pscore” ( Becker & Ichino, 2002) 。鲁汶及夏内西也在一年后发布了 他们所编写的用于倾向值匹配的模块“psmatch2” ( Leuven & Sianesi, 2003) 。这些统计模块的开发使倾向值匹配开始在社会学领域广泛应 用。根据哈佛大学社会学系安卫华的梳理,截至2009 年,在《美国社会 学评论》 ( American Sociological Review) 和《美国社会学杂志》上发表的 论文中,利用倾向值匹配技术的超过了200 篇,内容涉及教育社会学、 互联网使用、失业问题、健康问题等诸多方面( An, 2010) 。可以说,在 当前的社会学研究中,倾向值匹配已逐渐发展成为一个普适的统计研 究方法,并得到越来越多的重视。


倾向值匹配在社会学领域的兴起并非偶然,这是和社会学对大规 模调查资料的使用分不开的。与统计学领域的实验设计不同,调查资 料无法对研究个体进行人为控制。从这个意义上说,基于调查资料的 研究也被称为“观察性研究” ( observational studies) ( Rosenbaum, 2002) 。在实验性研究中,选择性误差可以通过随机化( randomization) 的方法来克服,但在观察性研究中,类似的随机化是不可能的。因此, 社会学家们基于调查资料去探究任何两个变量关系的时候都不可避免 地会受到其他混淆变量的影响。例如,布兰德和谢宇在2010 年的一篇 论文中列举了在研究大学教育和收入关系时所存在的选择性误差( Brand & Xie, 2010) 。一方面,很多人之所以能够上好大学就在于其 个人能力较其他人高,而这些人在未来的工作中也很可能表现得更好 从而收入更高。如果我们的研究样本大部分都是高智商群体,那么就 会“显得”大学教育带来高收入,但实际上,大学教育对收入的影响是 被个人能力这个变量给“膨胀起来” ( inflated) 的。另一方面,很多人上 大学概率低是由于他们家庭贫困难以负担教育费用。对这些人,只要 他们完成了大学教育,即使毕业后的收入只是达到平均水平,也已经比 之前有很大飞跃。在这种情况下如果我们的样本偏重于家境贫寒的 人,我们就会发现大学教育再一次“显得”对收入提升有很大促进作 用,而此时的混淆变量就是家庭经济背景。对于这种选择性误差,我们 可以通过赫克曼误差修正模型( selection correction model) 来进行控制, 但这个模型实施起来较为复杂。相比而言,倾向值匹配为我们提供了 一种更为直观简便的处理选择性误差的方法。在下一节,我将通过一 个实例来展示如何进行倾向值匹配。



   2


二、倾向值匹配的实施过程:一个实例


在这一部分,笔者将利用倾向值匹配的方法分析中国综合社会调 查2005 年城市问卷( CGSS2005) 的相关变量,并由此来估计中国城市 居民大学教育的收入回报。其中因变量是收入水平( 2004 年全年总收 入,包括工资、各种奖金、补贴、分红、股息、保险、退休金、经营性纯收 入、银行利息、馈赠等所有收入) ,这里将其取自然对数。我们关心的 自变量是被访者教育水平( 1 = 大学本科教育及以上; 0 = 大学本科教 育以下) 。我们需要控制的混淆变量包括: 性别( 1 = 女性; 0 = 男性) 、 年龄、政治身份( 1 =党员;0 =非党员) 、父亲教育水平( 1 = 高中教育及 以上;0 =高中教育以下) 、户口类型( 1 = 城市户口; 0 = 非城市户口) 、 被访者的单位性质及父亲的单位性质( 1 = 党政机关; 2 = 国有企业; 3 =国有事业;4 =集体企事业;5 = 其他) 。此处选取这些变量是因为已 有研究表明这些变量会混淆教育水平和收入之间的关系

一般我们会把这些混淆变量作为控制变量纳入到回归模型中,但这样做有一些潜在风险。首先,如果将这些混淆变量作为自变量放进 回归模型,我们就潜在假定了这些混淆变量对收入的效果与大学教育 对收入的效果之间存在一种线性关系。然而这种线性假定缺乏理论和 实践依据 ( Morgan, 2001) 。也就是说,我们不能简单认为性别对收入 的影响与教育对收入的影响是累加的( additive) 。其次,大学教育的回 归系数代表的是一种“平均”效果。这个系数所回答的问题是: 在人口 中任意选取一个人,如果他接受的是大学教育,他的收入会是什么水平。然而,在探索因果关系时我们所关心的问题则是:( 1) 一个任意选 取的大学生如果一开始没上大学的话会是什么收入水平; ( 2) 一个任 意选取的非大学生如果上大学的话会是什么收入水平。( 1) 和( 2) 是 两个不同的问题,而回归模型则没有区分它们,只是取了它们的平均水 平,这样做无疑会带来误差。最后,由于混淆变量与我们关心的自变量 之间存在相关性,简单地将混淆变量纳入多元回归模型有可能产生共 线性问题。倾向值匹配有效地控制了这些混淆变量,同时还通过一种 半非参数性( semi non-parametric) 方法避免了上面提到的三个风险。 ① 具体而言,运用倾向值匹配方法有以下几步。


步骤一:预测倾向值。这一步是利用已知的混淆变量使用 Logistic 或 Probit 模型来预测个体进入大学读书的概率。基于上面变量,得到 的结果见表1。


通过表1 我们可以发现,这些混淆变量加在一起对是否进入大学 学习有比较强的解释力,这一点可以从虚拟 R2( Pseudo R2)的数值( 超 过17%) 看出来。对社会学研究而言,这个虚拟 R2 值并不低,由此可 以看出该模型中的混淆变量能够比较显著地预测个体能否进入大学读书。


步骤二:基于倾向值进行匹配。有了上面的 Probit 模型,我们就能 够预测每个研究个体的倾向值。需要指出的是,虽然每个个体都有倾 向值得分,但有些人的倾向值太高或太低,因此无法找到相匹配的个体。这些倾向值取值非常“极端”的人因为没有与之匹配的个体存在 往往无法为我们提供有用的信息,所以在随后的分析中也就没有被考 虑进去,这就使得最后我们在分析高等教育的收入回报时所采用的样 本量可能要比一开始的样本量小。在这个最后使用的“匹配样本”中, 我们能够确保受过高等教育的个体和没有受过高等教育的个体匹配起 来。“匹配样本”中倾向值的取值范围被称为“共同区间”( common support) 。本研究中共同区间内的样本量为3164( 其中上过大学的为 229 人) 。在这个共同区间内,我们有不同的匹配方法将受过大学教育 的229 人和没受过大学教育的 2935 人配对。对某个上过大学的个体 A,比较常用的方法包括邻近匹配( 找与 A 的倾向值得分最接近的未上 大学的个体 B 匹配) ,半径匹配( 以个体 A 的倾向值为中心,以某个数 值为半径,在这个范围内的所有没上过大学的个体与 A 匹配) 以及核 心匹配。


步骤三:基于匹配样本进行因果系数估计。在这个匹配好的样本 中,我们只需比较那些上过大学和没上大学的个体的平均收入差值就 可以估计出大学教育本身对收入的影响。由于配对样本的倾向值近 似,配对个体在混淆变量上的取值极为近似,这样也就控制了混淆变量 的影响。换句话说,我们得到的组间( 上大学和没上大学) 差异就只能 归因于大学教育的有无。我们最后的结果如表2 所示。

通过表2 可以发现,不同匹配方法下我们得到的因果关系系数不 完全相等,这是因为受过大学教育的个体在不同的匹配方式下可能和 不同的未受大学教育的个体进行了匹配。然而这些不同的匹配方法得 出的结论基本一致( 系数在0. 73 到0. 77 之间) 。这些系数就是大学教 育的收入回报。其可以解释为与没有受过大学教育的人相比,大学教 育带来 log( 年收入) 的变化。

需要说明的是,在社会学定量研究中,在完成了匹配以后,通常会 比较每个混淆变量在大学组与非大学组之间是否还存在显著差异。理想情况是大学组与非大学组的混淆变量均值没有显著差异,这时我们 可以说这样的配对样本是“平衡” ( balanced) 的。限于篇幅,这里未将 均值比较结果展示出来,但我们上面的分析已通过了平衡性检验。此 外,倾向值匹配通常配合敏感性分析( sensitivity analysis) 来检验我们在 预测倾向值时是否忽略了某些关键的混淆变量。在敏感性分析阶段, 我们假设存在一个或多个我们没有能够控制的混淆变量,如果这些假 设的未控制变量对收入的影响的大范围变动都无法改变我们的结论,我们的结论就站得住脚。上面的研究就通过了相关的检验。



   3

倾向值匹配与因果推论


倾向值匹配后的结果不仅仅指出了变量之间有联系,还进一步确 立了二者之间的因果性。这种方法论上的优势可以从科技哲学和统计 学两个方面予以阐释。


1
科技哲学角度的阐 释 

倾向值匹配对因果性结论的支持首先依据的是科技哲学领域内对 因果关系的理论探讨。当我们谈及因果性的时候,我们往往会回归到 密尔对求同法( method of agreement) 及求异法 ( method of differences) 的讨论( 彭玉生, 2011; Mill, 2002/1984; Sobel, 1995, 1996) 。求同法是 指在一个群体中所有人都在两个变量上取值相同( 例如所有人都上了 大学,同时所有人都是高智商) 而在其他变量上取值不同( 他们不全是 女性,不全是农村居民,等等) ,那么这两个变量之间( 大学教育和智力 水平) 就具有因果关系。求异法是指两个个体在因变量上的取值不 同,而在某个自变量之外的其他自变量上的取值相同,则那个取值不同 的自变量和因变量之间存在因果关系。正如彭玉生所论述的那样,密 尔的这两种探索因果关系的方法对后来的统计实验设计有着巨大影响 ( 彭玉生, 2011) 。无论是求同法还是求异法,二者都要求对关键自变 量之外的其他自变量进行考察。只有其他自变量满足特定的条件时 ( 求同法要求其他自变量的取值都不一样,而求异法要求其他自变量 的取值都一样) 我们才能够确定某种因果关系。这实际上是引入了 “控制”的思想,即只有“控制”了其他变量,我们才能够真正确定我们关心的两个变量之间存在因果关系。


从“控制”的角度出发,倾向值匹配十分巧妙地完成了对多个混淆 变量的控制。我们可以从一个混淆变量的情况谈起: 假定只有个人智 力水平混淆了大学教育和收入之间的关系。一个比较直观的控制个人 智力的办法是将个人智力这一变量细分( sub-classification) 成不同层次 以保证每一个层次中的人的个人智力水平近似。然后我们在各个层次 内部观察大学教育和收入的关系,最后将这些关系综合起来( Rubin, 1997) 。如果存在两个混淆变量( 例如家庭经济背景好坏和个人智力 高低) ,我们可以将这两个变量交互分成 2x2 个小组,组内个体在这两 个变量上的取值都是一样的( 家庭背景好且智力高、家庭背景好且智 力低、家庭背景不好且智力高,以及家庭背景不好且智力低) ,在每组 内部观察大学教育和收入的关系然后综合起来。至此,通过细分的方 法,我们完成了“控制”混淆变量的工作。但随着混淆变量越来越多, 这种细分法就变得十分不方便了。例如,如果我们要控制5 个混淆变 量,每个变量有5 个取值水平,我们就需要划分55 = 3125 个小组。很 快我们的数据样本量就不够保证每一组都有个体。倾向值匹配的办法 巧妙地解决了这个多混淆变量下的“多维” ( multiple dimensional) 问 题:它不再关注每个需要控制的混淆变量的具体取值,而是转而关注将 这些变量纳入 Logistic 回归方程后预测出来的倾向值取值。只要保证 倾向值匹配,这些所有需要控制的混淆变量就都考虑到了( Rosenbaum & Rubin, 1983) 。这样做实际上是将对多个混淆变量的控制转为对倾 向值的控制从而达到“降维” ( dimension reduction) 的目的。换句话说, 无论有多少需要控制的混淆变量,我们都能够通过倾向值匹配的方法 将它们控制,从而帮助我们得出因果性结论。因此,从“控制”的角度 出发,倾向值匹配法很好地解决了多混淆变量时的控制问题,从而支持 了因果推论。


2


统计学角度的阐释 

倾向值匹配的因果推论功能也能通过统计学视角进行阐释。这里我们需要引入反事实框架( counterfactual framework) 这一统计学理论。 反事实( counter facts) 是指相反情境下的某种状态。例如,一群病人在 一个实验中被分到实验组接受新药物治疗。这些人症状的减轻或加重 是我们能够观察到的“事实”。而“反事实”则是指“假设”这同一群病 人当时不是被分到实验组而是对照组,即没有接受新药物治疗,那么他 们的症状会是什么样子。自变量( 新药) 对于症状的因果性效果在统 计学意义上就是指这“同一群人”在实验组时的症状和在对照组时的 症状之间的差异。换句话说,统计学上的因果关系是可观察到的“事 实”与其“反事实”之间的差异。从反事实的框架出发,因果性的关系 可以表示为: 



在这个公式里, Τ 是指因果关系; π 是指所有调查对象中在实验组 中的比例,而1 - π 也就表示了所有调查对象中在对照组的比例( 例如 1/3 是大学生,那么 π = 1/3,而没上大学的人的比例就是1 - π = 2/ 3) ; w 是一个二分变量,其中1 代表个体在实验组而0 代表个体在对照 组; Y1 和 Y0 分别指代实验组和对照组的成员在因变量上的取值。E 则是取平均值的意思。在上述公式中, E ( Y1 | w =1) 或 E ( Y0 | w = 0) 是可观测到的事实,而 E( Y1 |w =0) 和 E( Y0 |w =1) 则是反事实。 ① 因 果关系 T 就表示为实验组中的个体其“事实”与“反事实”之间的差 异———即 E( Y1 |w = 1) - E( Y0 | w = 1) ———与对照组中的个体其“事实”与“反事实”之间的差异———即 E( Y1 |w =0) - E( Y0 |w =0) ———的 加权平均值( 权重分别为 π 和1 - π) 。


但问题在于,我们永远也不可能观测到反事实是什么,因为在某项 特定的研究中,某一群人只可能在实验组或对照组,而不能同时在两组 中出现。这被称为“因果推论的基本问题” ( Holland, 1986) 。为了做出因果推论,我们需要用可观测到的 E( Y1 | w =1) 和 E( Y0 | w = 0) 来简 化上面的因果推论公式。具体而言,我们希望能够满足以下条件,这在 统计学上称为“非混淆假设” ( unconfoundedness assumption) :



不难看出,如果满足非混淆假设,反事实框架下的因果推论公式就 简化为: 



如果简化因果推论公式右边的两项均能观测到,我们就能做出因 果性结论,因此,从反事实框架出发,能否做出因果推论主要取决于非 混淆假设是否满足。 ① 随机化是统计学中常用的办法,由于实验个体 是通过随机方式分配到实验组和对照组中的,w 本身就和最后的实验 结果 Y1 或 Y0 没有关系了。 ② 换句话说,无论 w =0 还是 w =1, E( Y1) 或 E( Y0) 的值都是固定的,进而 E( Y1 |w =0) = E( Y1 |w =1) 且 E( Y0 |w =0) = E( Y0 |w =1) 。但是,对基于调查资料的社会学研究来讲,我 们做不到随机化。为了满足非混淆假设,我们能做的是尽可能控制混 淆变量,并保证这些变量一旦被控制起来, w 就能够近似地和 Y1 或Y0 保持独立,换句话说,我们希望做到: 



上式表明,只要能够找到并控制混淆变量 X,我们就能够近似地做 到 w 独立于 Y。在倾向值匹配中,所有的这些 X 通过Logistic 回归总 结成为一个特定的倾向值 P,而非混淆假设就是通过控制倾向值 P 来 满足的。即:


至此,通过控制倾向值,我们可以“近似地”满足统计学反事实框架下的非混淆假设从而做出因果推论。之所以说“近似”,是因为控制 倾向值的效果毕竟不是真正的随机化。很多时候我们很难知道是否已 经控制了需要控制的“所有”混淆变量。正因为如此,在完成倾向值匹 配以后我们通常需要进行敏感性分析。在这个意义上说,倾向值匹配 只是努力地满足反事实框架下的因果推论条件,但即使如此,我们也已 经从统计学意义上理解了倾向值匹配为什么能够帮助我们得出因果性结论。


    4

倾向值匹配与其他社会科学方法的比较


以上分析从科技哲学及统计学的角度阐释了为什么通过倾向值匹 配可以得到因果性结论。然而,因果性分析的方法并不局限于倾向值 匹配,在教育学及计量经济学领域中有很多其他的方法可以帮助我们 建构因果关系。在以下讨论中,我将把倾向值匹配与回归中断设计和 工具变量进行比较以展示倾向值匹配的优势。


1倾向值匹配和回归中断设计


在教育学中应用比较广泛的因果推论方法是“回归中断设计” ( regression discontinuity design) 。该方法最先由两位美国学者在 1960 ( Thistlethwaite & Campbell, 1960) 提出。在他们的研究中,两位学者关 心的是学习上的荣誉奖励( 原因) 是否能够提升学生未来的学术成就 ( 结果) 。这里的荣誉奖励是根据考试成绩而定的: 当考试成绩 x 超过 一定分数 c,则给予奖励( D =1) ,否则( x < c 时) 则没有奖励( D =0) 。 通过这种操作,我们就在我们所关心的自变量那里建立了一种“中断” ( c 之上和之下) 。随后如果学生的学术成就也发生了类似的中断( 例 如考试成绩在 c 以下学生的学术成就低于考试成绩在 c 以上的学生的 学术成就) ,则可以认为奖励和学术成就之间有因果关系。图 1 用图 示的方式表达了这种关系。


在图1 中, x 在 c 处的中断对应于因变量 Y 的中断,这种中断 τ 代 表了 x 对于 Y 的效果。从反事实框架来看,回归中断设计满足了非混 淆假设。在上面的荣誉奖励例子中,一个人得到荣誉奖励可以理解为 一个人进入了实验组,而这“完全”取决于学生的考试分数 x( 分数高就有奖励而分数低则没有奖励) 。因此,只要我们控制了分数 x, w( 是否 得到奖励) 就和因变量 Y1( 得到奖励的学生的学术成就) 以及 Y0( 没有 得到奖励的学生的学术成就) 独立了。用公式可以表述如下: 



这里我们可以将回归中断设计与倾向值匹配进行一下比较。倾向 值匹配将对多个混淆变量的控制转化为对“单一倾向值”的控制,以此 满足非混淆假设。而回归中断设计则是通过控制一个变量( 如上例中 的考试成绩) 就能完成这一点。回归中断设计之所以不需要考虑多个 混淆变量就在于一个个体是否能够接受某个自变量的影响( 即能否得 到奖励) 完全取决于单一变量 x( 考试成绩) 。换句话说,回归中断设计 中只有一个混淆变量 x。然而,在社会学的调查研究中很难找到这种 “单一混淆变量”的情况。正因为如此,回归中断设计在社会学中的应 用远不及在教育学中普遍( Angrist & Lavy, 1999; Black, 1999) 。此外, 回归中断设计的另一个缺陷在于: 如果存在其他自变量也出现某种 “中断”的情况,我们就很难知道什么原因造成了因变量取值的中断。假设一个人是否获奖不仅仅与考试成绩在临界点上下有关( x > c 或x < c) ,也和年龄有关( 例如年龄大的人容易获奖,而年龄小的人很难 获奖) ,则回归中断设计就无法探究荣誉奖励本身对未来学术成就的 影响( 因为学术成就的中断也有可能是因为年龄不同) ( Hahn et al. , 2001) 。在社会学研究中,类似的多重中断并不少见,这也使得回归中 断设计的应用范围受到限制。


2倾向值匹配和工具变量


除了回归中断设计,在经济学及传染病学领域应用比较广泛的另 外一个方法是工具变量( instrumental variable) ( Angrist et al. , 1996; Angrist & Krueger, 2001; Greenland, 2000; Martens et al. , 2006; Newhouse & McClellan, 1998) 。假定我们希望探索变量 X 对 Y 的因果关系,混淆变 量 U 的存在会影响我们的研究。这时我们寻找到一个工具变量 Z,该 变量的特点在于和 X 相关,但不和 Y 直接相关( 除非是通过 X) ,同时 Z 也不与混淆变量U 相关。这样,我们就不直接考察X 是否能影响 Y, 而是转而考察 Z 对 Y 的影响。如果 Z 很明显地影响了 Y,我们就能得 出 X 影响了 Y 的结论。工具变量的基本逻辑表示如图2。



通过图2 我们很容易理解工具变量的基本逻辑,由于混淆变量 U 和 X 互相影响,我们很难直接探索 X 对 Y 的“纯”作用。所以我们找 到工具变量 Z。Z 和 Y 的关系只能通过 X,因此如果我们能够发现 Z 对 Y 有作用,我们就能间接得出结论说 X 对 Y 有作用,从而确定了一 种因果关系。


从严格的统计学意义上来说,利用工具变量进行因果推论需要满 足很多假设条件( Imbens & Angrist, 1994) 。这里可以通过一个经典实例来展示这些假设。安格里斯特等人( Angrist et al. , 1996) 使用工具变 量分析了服兵役( X) 是否会对士兵在退伍后的健康状况( Y) 产生因果 性影响。这里,服兵役的工具变量是抽签的结果( Z) 。当抽到的数字 低于某个值则服兵役,而高于这个值则不需服兵役。在这个例子中,安 格里斯特及其同事阐述了使用工具变量进行因果推论的几个关键假 设。第一个假设称为“单位实验效果值稳定假设” ( stable unit treatment value assumption) 。这意味着每个人的抽签结果不会对他人是否服兵 役产生影响。第二个假设就是上面提到的非混淆假设,即抽签的结 果和个体的健康之间相互独立。由于这里是随机抽签,因此这一条件 得到满足。第三个假设是“排除性假设” ( exclusion restriction) 。这一 假设意味着在因果推论中排除两类人。第一类人是无论抽签结果如何 都会服兵役( 总是服兵役的人) ,而第二类人是无论抽签结果如何都不 会服兵役( 总是不服兵役的人) 。第四个假设是“平均因果效果非 零” ( nonzero average causal effect) ,即保证如果抽中的号码小,则服兵 役的概率就高。最后一个假设是“单调性” ( monotonicity) ,意味着抽 中小数字的人去服兵役的概率要比抽中大数字的人去服兵役的概率高。根据这一假设,那些“低数字偏偏不服兵役”而“高数字偏偏服兵 役”的“叛逆者”就被排除在外了。


根据这些假设,我们回到反事实框架下的因果推论公式,即:



这里由于我们有抽签的机制, π( 即服兵役的比例) 就等于 X( Z =1) , 而没有服兵役的比例1 - π 则等于 X( Z =0) ,而w = X。其中, X 表示是否 服兵役,它是 Z 的函数,而 Z 表示抽签结果( Z = 1 表示抽中小号,而 Z =0 表示抽中大号) 。将它们代入反事实框架下的因果推论公式,我们得到: 



由于叛逆者被排除出去,可以假定 E( Y0 | X = 1) = E( Y0 | X = 0) =0,这进一步将因果关系简化成为:



上述公式右端的各项都是可观测到的,从而使得因果推论得以完 成。然而,使用工具变量方法存在诸多限制。首先,我们所推论出的因 果关系被称为“局部平均治疗效果” ( local average treatment effect) ( Wooldridge, 2002) 。这是因为我们最终能够推算出的因果关系仅仅 适用于那些遵循“拿到小号服兵役,拿到大号不服兵役”原则的“服从 者” ( complier) ( Imbens & Angrist,1994) ,但我们不能考察总是服兵役 的人、总是不服兵役的人或叛逆者。其次,工具变量方法能否带来因果 推论很大程度上取决于我们能否找到好的工具变量。如果工具变量本 身不够好( 比如工具变量和我们关心的自变量的联系很弱,或者和某 些混淆变量有关系) ,那么我们的结论就站不住脚了( Bound et al. , 1995) 。最后,工具变量的实施需要满足一定的随机性以满足非混淆 假设。但在社会学研究中,类似于随机抽签这样“完美”的工具变量几 乎很少见到。

总之,无论是回归中断设计还是工具变量都不能够像倾向值匹配 那样可以方便地应用于基于调查研究的数据分析。回归中断设计需要 寻找一个变量“完全决定”个体是否进入实验组或对照组,而工具变量 的方法也需要寻找到合适的工具变量来满足上面列举的诸多条件,这 些在调查数据中往往难以满足。正因为如此,在社会学研究中倾向值匹配的方法要比其他方法更为“流行”。


计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭戳这里,要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们的微信群和计量论坛。



帮点击一下下面的小广告,谢谢支持!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存